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单 颗粒 冷冻 电镜 三 维 重 构 研 究 的 新 进展 
建站 ,经 过 三 十 多 年 的 发 展 ,冷冻 电镜 技术 已 经 成 为 研究 生物 大 分 子 结构 与 功能 的 强 有 力 手 


段 。 冷冻 电镜 三 维 重 构 技 术 主 要 是 将 相同 的 生物 大 分 子 样品 保存 在 液 氮 或 液 氨 温度 下 , 利用 


透射 电子 显微镜 进行 二 维 成 像 ， 再 经 过 对 二 维 


2.1 电镜 三 维 重 构 原 理 


德 罗 西 耶 和 克 卢 格 提出 的 三 维 重 构 理论 
是 借助 一 系列 沿 不 同方 向 投影 的 电子 显 微 像 
来 重 构 被 测 物体 的 立体 构 型 ， 他 们 提出 了 利 
用 数字 图 像 处 理 技 术 进 行 电子 显 微 像 三 维 重 
构 测定 生物 大 分 子 结构 的 概念 和 方法 。 电 镜 
三 维 重 构思 想 的 数学 基础 是 中 央 截 面 定理 和 
傅立叶 变换 。 中 央 截 面 定理 的 含义 是 : 一 个 
函数 沿 某 方向 投影 函数 的 傅立叶 变换 等 于 此 
函数 的 傅立叶 变换 通过 原点 且 垂直 于 此 投影 
方向 的 截面 函数 中。 因此 电镜 三 维 重 构 的 理 
论 基 础 是 一 个 物体 的 三 维 投 影像 的 傅立叶 变 
换 等 于 该 物体 三 维 傅立叶 变换 中 与 该 投影 方 
向 垂直 的 ， 通过 原点 的 截面 (中 央 截 面 )， 如 
图 1 所 示 外 。 每 一 幅 电 子 显 微 像 是 物体 的 二 
维 投影 像 ， 沿 不 同 投影 方向 拍摄 一 系列 电子 
显 微 像 ， 经 傅立叶 变换 会 得 到 一 系列 不 同 取 
向 的 截面 。 当 截面 足够 多 时 ， 会 得 到 傅立叶 
空间 的 三 维 信息 ， 再 经 傅立叶 反 变 换 便 能 得 
到 物体 的 三 维 结构 ， 如 图 2 所 示 所 。 这 种 方 
法 目前 已 经 在 很 广泛 的 范围 内 得 到 应 用 ， 从 


投影 图 像 的 分 析 进 行 三 维 重 构 趾 。 


(0) (d) 
图 1， 中央 截 面 定 理 


图 中 (a). 生物 大 分 子 的 三 维 模型 ; (b). (a) 
中 的 三 维 模型 在 菜 一 方向 的 投影 ;，(c)， 投影 
的 傅立叶 变换 ; (d). 三 维 模型 二 维 投 ， 影 的 傅 
立 叶 变换 等 同 于 原 三 维 模型 传 立 叶 变 换 的 中 
央 截 面 ， 图 中 的 4 个 截面 分 别 对 应 于 4 个 不 
同方 向 的 投影 (0°,~45°,90°,~135°) 


无 固定 结构 特征 的 细胞 器 :和 生物 大 分 子 复合 物 到 大 分 子 唱 体 ， 已 发 展 为 蛋白 质 结构 解析 的 


一 种 实用 方法 。 
2.2 单 颗粒 冷冻 电镜 三 维 重 构 原 理 


单 颗粒 冷冻 电镜 技术 是 获得 生物 大 分 子 三 维 重 构图 像 的 重要 方法 。 所 谓 单 颗粒 法 就 是 对 分 离 


纯化 后 的 颗粒 状 分 子 进行 结构 分 析 。 其 基本 原理 是 


: 通过 对 相同 的 生物 大 分 子 某 方向 的 投影 


显 微 像 在 实 空间 中 经 过 调整 后 进行 合 加 平均 ,从 而 提高 信 品 比 , 使 粒子 中 共同 部 分 的 结构 信 
县 得 到 加 强 ,最 后 对 各 种 不 同 投影 方向 的 单 颗粒 显 微 像 在 三 维 空间 中 进行 重 构 ， 从 而 获得 单 
颗粒 大 分 子 的 三 维 结构 信息 。 单 颗粒 冷冻 电镜 的 主要 步骤 如 图 3 所 示 叫 : (1). 


制备 化 学 和 


结构 上 均一 的 生物 大 分 子 的 冰冻 含水 样品 ;，(2)， 选择 最 有 可 能 产生 最 佳 图 像 的 最 佳 颗粒 密 
度 和 玻璃 态 冰 厚度 的 样品 ; (3). 设 定 最 佳 的 参数 〈 比 如 : 从 焦 值 、 放 大 倍数 和 电子 剂量 等 )， 
拍摄 并 记录 这 些 样 品 区 域 的 大 量 图 像 ，(4). 用 手工 或 半自动 程序 选择 离散 分 子 形成 的 投影 


图 ; (5). 通过 各 种 图 像 处 理 的 方法 计算 不 同 图 像 之 间 的 相对 方位 ， 进 而 重 构 出 生物 大 分 子 
的 三 维 结构 模型 ，(6). 最 后 结构 分 析 和 评价 ， 将 从 品 体 学 或 核磁 共振 获得 的 蛋白 质 结构 的 


原子 坐标 定位 到 三 维 结构 密度 图 中 。 


图 4 概括 了 单 颗粒 冷冻 电镜 三 维 重 构 技 术 涉 及 到 的 从 二 维 投影 图 像 到 三 维 重 构 模型 的 


”细胞 质 中 具有 一 定 结构 和 功能 的 微 结构 ， 如 : 线粒体 叶绿体; 内 质 网 ， 高 尔 基体 , 核糖 体 : 溶 酶 体 ; 


液 泡 ， 中心 体 等 。 
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图 像 获取 : 由 于 电子 显微镜 照片 的 信 噪 比 非常 低 ， 要 获得 高 分 辨 率 的 分 子 三 维 模型 ， 必 
须 采 集 尽 可 能 多 的 电子 显 微 颗粒 图 像 。 当 前 主要 的 方法 是 人 工 挑选 , 这 是 一 项 耗 时 乏味 的 体 


力 活 ， 若 用 人 工 挑选 几 二 万 张 颗粒 图 像 几 乎 是 不 可 能 的 事情 。 此 外 ， 该 阶段 还 需要 对 图 像 进 


行 降 噪 处 理 和 从 采样 处 理 ， 详 细 资 料 请 参见 [10]。 
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1 contrast transfer function 衬 度 传递 函数 


? Power Spectra Density 能 谱 密度 


图 4. 单 颗 粒 冷冻 电镜 三 维 重 构 的 处 理 流程 


衬 度 传递 函数 修正 : 透射 电镜 的 物镜 不 是 理想 的 凸透镜 ， 由 于 球 差 、 离 焦 照 相等 因素 的 
影响 ， 最 终 的 显 微 图 像 是 经 过 衬 度 传递 了 两 数 (contrast transfer function, CTF ) 和 一 些 噪声 函 
数 作用 的 结果 ， 并 不 是 真正 的 样品 投影 势 。 因 此 重 构 时 必须 对 图 像 进 行 CTF 修正 ， 常 用 的 
方法 是 首先 估算 颗粒 图 像 的 功率 谱 密 度 (power spectral density, PSD)， 然 后 利用 理论 的 CTF 
模型 对 PSD 进行 拟 合 ， 进 而 修正 CTF- 相 位 5。 
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图 像 二 维 分 析 : 在 获得 颗粒 图 像 数 
对 齐 (alignment) 等 处 理 ， 以 得 到 颗粒 图 像 每 个 方向 的 平均 图 、 对 称 


单 颗粒 冷冻 电镜 三 维 重 构 研 究 的 新 进展 


据 集 的 基础 上 ， 需 要 对 每 一 个 图 像 进行 旋转 、 平 移 和 


性 等 信息 。 


图 像 分 类 : 在 进行 三 维 重 构 处 理 之 前 ， 必 须 对 颗粒 投影 图 像 进行 分 类 ， 


以 保证 每 一 类 中 


所 有 的 图 像 都 属于 同一 方向 的 投影 图 ， 否 则 将 会 对 重 构 结果 产生 非常 不 利 的 影响 中 。 通 常 


se A A [2,14,15 
类 等 等 24419。 


是 采用 经 典 的 模式 识别 和 聚 类 技术 ， 例 如 特征 提取 、 自 


相关 /互相 关 分 析 、 硬 聚 类 和 模糊 聚 


角度 指定 : 颗粒 图 像 分 类 完成 后 ， 需 要 计算 每 一 类 图 像 的 投影 方向 。 一 般 是 通过 比较 颗 
粒 图 像 和 计算 机 模拟 生成 的 投影 来 确定 颗粒 图 像 的 投影 方向 。 为 了 降低 噪声 的 影响 , 通常 用 


每 类 颗粒 图 像 的 平均 图 来 代表 该 类 。 


三 维 重 构 : 根据 中 央 截 面 定理 , 每 个 颗粒 图 像 的 傅立叶 变换 等 同 于 原 模型 三 维 傅立叶 空 


间 中 一 个 中 央 截 


面 。 因 此 根据 每 类 颗粒 图 


像 的 投影 方向 可 以 重 构 出 三 维 傅立叶 空间 ,然后 采 


用 直接 逆 倩 立 叶 变换 或 者 加 权 背 投影 (weighted back-projection) 经 过 多 次 迭代 重 构 优化 ， 


就 可 以 最 终 获得 分 子 的 三 维 结构 模型 。 


2.3 单 颗粒 冷冻 电镜 三 维 重 构 软件 EMAN 


EMAN 是 由 美国 国家 大 分 子 图 
像 中 心 的 路 德 克 (Steven J. Ludtke) 
等 人 开发 ， 于 1999 年 推出 第 一 个 版 
本 Md， 如 今 已 成 为 世界 上 使 用 最 广 
泛 , 结果 分 辨 率 最 高 的 单 颗粒 重 构 软 
件 之 一 。 使 用 EMAN 对 电子 显微镜 
照片 进行 单 颗粒 三 维 重 构 包 括 以 下 
三 个 基本 步骤 : (1). 颗粒 挑选 ， 从 
电子 显微镜 照片 中 挑选 出 生物 样品 
颗粒 的 图 片 ， 并 将 所 有 挑选 的 结果 进 
行 保存 ; (2). 初始 模型 生成 ， 利 用 
上 一 步 得 到 的 颗粒 图 片 ， 生成 一 个 初 
始 三 维 模型 。 该 模型 一 般 较 为 粗糙 ， 
通常 无 法 满足 预期 的 分 辨 率 要 求 ; 
(3). 模型 优化 ， 通 过 友 代 的 方式 对 


图 5. EMAN 中 模型 优化 的 流程 图 
初始 模型 逐步 优化 ， 直 到 三 维 模 型 的 分 辨 率 满 足 要 求 或 者 迭代 收敛 为 止 。 以 上 步骤 中 ,模型 


优化 是 最 为 耗 时 的 , 它 占 到 单 颗粒 重 构 总 时 间 的 绝 大 部 分 , 同时 它 直 接 决 定 了 最 终 分 子 结构 


的 分 辨 率 。 


模型 优化 的 每 一 轮 欠 代 需要 经 历 四 个 主要 操作 ， 如 图 5 所 示 [7; 


第 一 步 投影 操作 : 输入 是 一 个 三 维 模型 。 对 于 第 一 轮 和 迭代 ， 该 模型 是 上 一 步 生 成 的 初始 
模型 ; 对 其 它 轮 达 代 ， 该 模型 来 自 上 一 轮 兴 代 生成 的 新 模型 。 投 影 操 作 的 目的 是 计算 输入 模 


型 沿 着 一 组 欧 拉 角 (@&,p,y; 


中 工 对 应 欧 拉 角 (ai,Bi,y:) o 


i=12…m) 的 二 维 投影 。 这 些 投影 将 作为 模板 ,在 后 续 操 作 中 
与 分 子 颗粒 图 像 进 行 比 对 。 在 后 面 的 讨论 中 ， 假 设 该 操作 生成 的 二 维 投 影 为 ,了 ,…T,，， 划 


第 二 步 分 类 操作 : 评估 各 分 子 颗粒 图 像 (BB…PB ) 与 上 一 步 生 成 的 各 投影 之 间 的 相似 
度 , 并 以 此 为 依据 ,对 分 子 颗粒 图 像 进 行 分 类 。 对 于 颗粒 图 像 P (1< j<n), 具体 算法 如 下 : 
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给 定 任 意 投影 ,首先 将 Pj 与 全 进行 旋转 平移 对 齐 ， 找到 最 佳 的 旋转 角度 和 平移 向 量 ,使 得 
PP 经 过 该 角度 和 向 量 的 旋转 平移 之 后 ， 与 二 最 为 相似 。 之 后 将 P 和 和 对 应 像素 点 的 灰 度 值 
分 别 作 为 三 维 平面 上 点 的 横 坐 标 与 纵 坐标 ， 对 这 些 二 维 平面 上 的 点 进行 最 小 二 乘 直线 拟 合 。 
与 PB 的 相似 度 s(i,j) 由 拟 合 误差 决定 ， 拟 合 误 差 越 大 ， 相 似 度 越 低 ， 反 之 亦 然 。 最 后 找 出 
与 相似 度 最 高 的 投影 Tc(j) ， 即 满足 如 下 条 件 的 投影 : 


s(c()),j)= max{s(i,))| <i< m)} 


将 忆 归 入 第 c(j) 个 颗粒 图 像 类 ， 并 把 (0),Bu0),y) ) 作 为 的 投影 取向 。 对 于 每 一 个 
颗粒 图 像 重 复 上 述 过 程 将 得 到 一 组 颗粒 图 像 类 Gi,C;,…C， 它 们 包含 的 颗粒 图 像 满足 条 件 : 


G={Ple(D)=i} i=12,m 

第 三 步 平均 操作 : 对 以 上 生成 的 每 一 类 颗粒 图 像 分 别 进行 ,输出 每 一 类 颗粒 图 像 的 平均 
图 。 上 其 体 的 算法 分 两 步 : 

(1) 第 选 颖 粒 图 像 。 通 过 计算 闷 值 cut (i) ， 将 相似 度 低 于 该 值 的 颗粒 图 像 从 类 中 删除 。 
因此 ， 经 过 筛选 之 后 的 类 Ci "包含 的 颗粒 图 像 满足 条 件 : 


C={Ple())=iAs(i,j)> cut(D)} i=12,m 


(2) 利用 筛选 之 后 剩余 的 颗粒 图 像 计算 该 类 的 平均 图 。 平 均 图 每 一 像素 点 的 灰 度 值 是 
经 过 筛选 之 后 的 类 中 所 有 颗粒 在 该 点 处 灰 度 的 均值 。 假 设 由 颗粒 图 像 类 C; 生成 的 平均 图 为 
qa;， 由 于 Gi 对 应 的 投影 五 以 及 Gi; 中 颗粒 图 像 的 投影 角度 均 为 (@i,Bi,yi) ， 因 此 认为 a 的 投影 
角度 也 为 (@&i,pBi,yi) 。 


第 四 步 重 构 操作 : 利用 上 一 步 得 到 的 所 有 平均 图 生成 新 的 三 维 模 型 。 首 先 计算 各 类 平均 
图 的 傅立叶 变换 ,得 到 一 组 频谱 图 。 之 后 将 各 频谱 图 插入 到 三 维 傅立叶 空间 中 。 根 据 中 央 截 
面 定理 , 每 一 个 频谱 图 对 应 三 维 傅立叶 空间 中 一 个 经 过 原点 的 截面 , 并 且 该 截面 与 平均 图 对 
应 的 投影 方向 垂直 。 当 所 有 频谱 图 都 按照 正确 的 位 置 插入 到 三 维 傅立叶 空间 中 后 ,对 傅立叶 
空间 中 的 三 维 体 数据 进行 傅立叶 逆 变 换 ， 即 可 得 到 新 的 三 维 模型 。 


=H 


= 2.4 当前 研究 面临 的 问题 
到 近年 来 单 颗粒 冷冻 电镜 三 维 重 构 技术 取得 了 长 足 的 进展 , 已 经 成 为 结构 生物 学 研究 中 至 


关 重 要 和 不 可 玲 代 的 研究 手段 , 然而 , 在 计算 方面 仍然 存在 很 多 挑战 性 的 问题 ,制约 着 单 颗 
粒 冷 冻 电 镜 的 进一步 发 展 。 特 别 是 需要 进行 以 下 两 方面 的 研究 : 


1. 快速 准确 的 颗粒 图 像 识 别 算 法 


于 电镜 使 用 了 低 剂量 的 电子 辐射 使 得 蛋白 颗粒 图 像 的 信和 躁 比 非常 低 ,要 提高 
信 躁 比 ， 得 到 高 分 辨 率 的 分 子 三 维 模型 ， 必 须 采 集 更 多 的 电子 显 微 颗粒 图 像 。 一 般 
要 获得 原子 分 辩 紊 的 结构 需要 儿 十 万 张 原始 颗粒 图 像 数据 中 。 目 前 最 可 靠 的 颗粒 
图 像 挑 选手 段 还 是 手工 挑选 。 可 以 想象 , 如 果 手 工 挑选 几 十 万 张 颗粒 图 像 将 是 一 件 
不 可 能 的 事情 。 颗 粒 图 像 识 别 算法 一 直 是 冷冻 电镜 三 维 重 构 的 研究 热点 之 一 。《 结 
构 生 物 学 杂志 〈Journal of Structural Biology )》145 (2004) 这 一 期 集中 总 结 了 颗粒 
图 像 自动 识别 的 方法 ， 将 其 归纳 为 五 类 0 1. 基于 模板 〈Template-based) 的 方 
法 、2. 基于 边沿 检测 (edge detection-based ) 的 方法 、 3. 强度 比较 (Intensity 
comparison ) 方法 、 4. 基于 纹理 〈Texture-based) 的 方法 、 5. 神经 网 络 方法 。 

虽然 近年 来 在 该 领域 的 研究 取得 了 重要 的 进展 [5 ， 颗 粒 图 像 识 别 自动 采集 算法 依 
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然 是 单 颗粒 三 维 重 构 的 一 个 瓶 宽 ， 因 此 迫切 需要 发 展 快速 准确 的 颗粒 图 像 挑 选 算 
2 


2. ”高 性 能 计算 


在 冷冻 电镜 三 维 重 构 处 理 中 每 一 张 蛋 白 颗粒 图 像 都 需要 通过 计算 确定 颗粒 的 
投影 方向 ， 然 后 利用 中 心 截 面 定 理 和 傅立叶 变换 获得 蛋白 颗粒 的 三 维 结构 ， 且 三 维 
重 构 的 模型 还 需要 经 过 多 次 迭代 优化 ， 因 此 冷冻 电镜 三 维 重 构 极 其 耗 时 , 通常 需要 
105CPU 小 时 。 例 如 2008 年 2 月 在 《自然 CNature)》 上 发 表 的 s15 噬菌体 病毒 的 
结构 ， 就 是 基于 36,259 张 颗粒 图 像 ， 在 普度 (Purdue) 大 学 的 Condor computing 
resource 上 耗 时 几 个 月 的 时 间 (105CPU 小 时 ) 重 构 出 来 的 ,其 结构 分 辨 率 为 4.5 埃 P。 
现 有 的 计算 能 力 和 计算 方法 已 经 根本 无 法 对 冷冻 电镜 试验 数据 进行 及 时 的 处 理 , 严 
重 制约 了 其 在 实际 中 的 应 用 。 因 此 利用 高 性 能 超级 计算 环境 和 计算 技术 开发 快速 准 
确 的 三 维 重 构 计 算 方 法 就 显得 尤为 关键 和 迫切 。 


3 ”我 们 的 工作 


本 节 重 点 介绍 我 们 谍 题 组 在 冷冻 电镜 三 维 重 构 方 面 的 一 些 研究 工作 。 首先 , 介绍 在 冷冻 
电镜 三 维 重 构 高 性 能 计算 方面 的 研究 ， 其 次 介绍 我 们 在 蛋白 颗粒 识别 方面 的 研究 。 
3.1 并 行 单 颗粒 重 构 软件 ParaEMAN 


冷冻 电镜 单 颗粒 三 维 重 构 的 处 理 涉及 到 多 个 计算 模块 , 具有 多 样 性 的 特点 ,因此 一 个 单 
一 的 、 全 局 的 并 行 策略 并 不 适合 其 并 行 化 。 针 对 EMAN 处 理 流程 的 主要 模块 (投影 、 分 类 、 
平均 、 重 构 )， 我 们 分 别提 出 了 不 同 的 并 行 策略 ， 进 行 了 并 行 单 颗粒 重 构 软 件 ParaEMAN 在 
明光 5000A 高 性 能 计算 系统 的 1024 个 核 上 的 运行 测试 ， 得 到 了 508.5 倍 的 加 速 比 。 


ParaEMAN 设计 实现 中 的 核心 问题 是 计算 任务 的 动态 调度 : NN 个 颗粒 被 classesbymra 
程序 分 为 n 个 类 , 其 中 第 i 个 类 中 包含 个 颗粒 , 之 后 由 classalign2 程序 计算 每 一 类 的 平均 。 
如 果 按 照常 规 的 方式 并 行 classalign2, 需要 将 第 i 个 类 中 的 个 颗粒 进一步 划分 为 若干 部 分 ， 
分 配给 各 进程 或 线程 。 该 策略 的 实际 结果 并 不 理想 , 原因 是 各 个 类 中 的 颗粒 数量 不 均衡 。 对 
gr 一 一 个 颗粒 数量 较 少 的 类 , 每 一 个 进程 或 线程 得 到 的 数据 量 将 会 很 小 , 因而 并 行 计算 带 来 的 性 
rr 能 提升 将 无 法 补偿 多 线程 或 多 进程 的 开销 ， 从 而 造成 整体 性 能 下 降 。 针 对 这 一 问题 ， 我 们 课 

题 组 提出 了 一 种 自 适应 动态 调度 策略 (Self-Adaptive Dynamic Scheduling，SADS) 有 效 实现 了 
分 类 操作 的 并 行 化 外 中 |。 


SADS 将 每 个 类 的 平均 操作 作为 一 个 独立 的 任务 ,分 配给 不 同 的 进程 。 与 常规 并 行 方式 
的 每 次 并 行 处 理 一 个 分 类 操作 不 同 , 该 策略 一 次 考虑 所 有 类 的 平均 操作 , 根据 各 操作 所 需 的 
处 理 时 间 ， 将 相应 的 类 分 配给 某 个 进程 ， 同 时 使 得 各 个 进程 的 总 处 理 时 间 尽 可 能 相等 。 因 此 
首要 的 问题 就 是 估算 各 任务 所 需 的 处 理 时 间 。 由 于 平均 操作 的 时 间 复 杂 度 为 D(K) ， 其 中 
代表 第 i 个 类 中 颗粒 图 像 的 个 数 。 因 此 可 用 如 下 线性 函数 对 任务 的 处 理 时 间 建 模 : 


pi:=ak+b i=1,2,:…,m 

其 中 a 和 bb 为 待定 系数 ， 其 值 与 系统 配置 有 关 。 在 实际 研究 中 我 们 利用 上 一 轮 达 代 中 任 
务 的 实际 执行 时 间 来 更 新 待定 系数 的 值 。 假 设 在 第 j 轮 迭代 中 ， 待 定 系 数 的 值 为 a(j) 和 
b(j) ， 第 i 个 类 中 颗粒 图 像 个 数 为 k(j)，SADS 的 框架 如 下 : 


1 置 初 值 a) =1，b0) =0 
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2 for j=0 to ITER - 1 do 
2.1 估算 各 任务 的 处 理 时 间 
DO = ak TbDOD，i=12m 
2.2 根据 估算 的 任务 处 理 时 间 pl 分 配 任务 给 不 同 进程 
2.3 各 进程 执行 任务 并 记录 实际 运行 时 间 上 tf 
2.4 利用 任务 实际 运行 时 间 更 新 下 一 轮 送 代 待定 系数 的 值 : 


Sy KO SS kD 
my (kK) -OK 


endfor 


得 进程 的 负载 尽 可 能 均衡 。 该 问题 可 归结 为 整数 规划 : 
Mint 


Dpixs <t j 二 1,2,.…,m 


xy e{0,1) i=1,2,,m j=1,2,,p 


在 以 上 算法 框架 中 ，2.2 步 根 据 估算 的 任务 执行 时 间 将 m 个 任务 分 配给 p 个 进程 ， 并 使 
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这 是 一 个 具有 NP 难度 的 最 优化 调度 问题 。 通 过 对 该 问题 的 适当 简化 ， 采 用 动态 规划 的 


方法 求解 ， 我 们 获得 了 较 好 的 负载 平衡 。 
3.2 冷冻 电镜 单 颗粒 图 像 识 别 方法 


于 冷冻 电镜 颗粒 图 像 的 信 品 比 非常 低 ， 以 及 分 子 颗粒 取向 的 随机 性 , 给 冷冻 电镜 分 子 


颗粒 挑选 带 来 很 大 困难 。 针 对 这 一 问题 ,我们 采用 多 各 方法 进行 了 多 种 颗粒 图 像 识 别 算法 的 
党 试 ， 包 括 基于 直方 图 信息 米 、 改 进 的 AdaBoost 算法 ?、 贝 叶 斯 分 类 、 最 小 距离 分 类 和 相关 


3 
t 


率 (False Negative Rate，FNR)， 主 要 的 工作 为 : 


匹配 等 方法 ， 有 效 降低 了 颗粒 图 像 挑选 的 存 伪 比 率 〈False Positive Rate，FPR) 和 弃 真 比 


量 ”根据 颗粒 区 域 与 非 颗粒 区 域 的 灰 度 直方 图 分 布 不 同 , 同 种 颗粒 区 域 之 间 灰 
分 布 较为 相似 的 特点 , 我 们 提出 了 基于 直方 图 信息 粹 的 图 像 识 别 方法 。 信 
以 下 计算 方式 : 


Vi= > i)xlogf (i)— f(i)xlog f:(i)) 


V2= bi i)xlog( fi(i)/ £2(i)) 


”Adaptive Boosting， 一 种 机 器 学 习 算法 。 


度 直 方 


chinaXiv:201703.00159v1 


单 颗粒 冷冻 电镜 三 维 重 构 研 究 的 新 进展 
其 中 ， 有 (i) ， (i 分 别 代 表 模 板 与 带 识别 的 区 域 灰 度 分 布 。n 代表 灰 度 级 。V1 
表示 模板 与 带 识 别 的 区 域 灰 度 直方 图 信息 信 的 差 值 。 V2 表示 相对 炉 (或 称 Kullback 
-Leibler 距离 ， 可 表示 图 像 之 间 的 差异 )。 

借鉴 人 脸 识 别 中 常用 的 AdaBoost 算法 ， 并 结合 冷冻 电镜 图 像 的 特点 ， 提 出 了 利用 
分 治 原 理 优化 AdaBoost 的 方法 ， 提 高 了 AdaBoost 算法 识别 的 精度 。 其 思想 是 在 
AdaBoost 算法 的 学 习 训 练 阶 段 ， 对 整个 样本 集 进行 分 治学 习 ， 并 以 子 样本 所 占 比 
重 作为 权重 ， 对 每 个 子 样本 生成 的 子 强 分 类 器 进行 组 合 “。 


对 每 一 个 子 样本 训练 一 强 分 类 器 : 


1 至 
Fn (x) ' ee a, = 


0, 其 它 


其 中 hj (x) 表 示弱 分 类 器 的 值 ，0; 表示 弱 学 习 算法 寻找 出 的 阔 值 ， 方 (x) 表示 
特征 值 ，x 表示 一 个 Haar 特征 ，& 表示 弱 分 类 器 的 错误 概率 ，m 表示 第 n 个 子 样本 
的 强 分 类 器 。 


全 样本 空间 的 强 分 类 器 由 子 样本 分 类 器 的 线性 组 合 形成 : 


HW)= Pw (x) 


I 


t 中 互 (x) 为 全 样本 空间 分 类 器 ，w，(i=1,2,…,n) 为 每 个 子 样本 对 应 的 权重 。 


EN 


昔 鉴 贝 叶 斯 分 类 器 和 最 小 距离 分 类 器 在 特征 分 类 方面 的 优势 , 提出 了 基于 贝 叶 斯 分 
类 器 和 最 小 距离 分 类 器 的 分 类 方法 。 

贝 叶 斯 分 类 器 的 分 类 原理 是 通过 某 对 象 的 先 验 概 率 , 利用 贝 叶 斯 公式 计算 出 大 
后 验 概 率 , 即 该 对 象 属于 某 一 类 的 概率 , 选择 共有 最 大 后 验 概率 的 类 作为 该 对 象 所 
属 的 类 。 这 里 用 的 是 高 斯 模式 类 的 贝 叶 斯 分 类 器 ， 即 分 类 的 模式 服从 高 斯 密度 。 


二 维 贝 叶 斯 判别 函数 : 


1 -Cm) 


\/27zGri 


其 中 wj 表示 第 j 类 模式 ， 忆 表示 概率 。 
距离 分 类 器 利用 分 子 颗粒 在 多 维特 征 空间 中 呈现 聚 类 分 布 的 性 质 , 在 多 维 空间 
判断 待 识别 的 区 域 到 聚 类 中 心 的 距离 。 


dj = P(x/wj)P(w)= 


1 | 
D, (x)=|* mjl, 其 中 my) dl 
j xewj 


x 表示 一 未 知 的 模式 向 量 ，Nj 是 类 Wi 的 模式 向 量 数 目 ，W 是 模式 类 的 数目 。 
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我 们 在 公共 的 冷冻 电镜 颗粒 图 像 基 准 测试 集注 上 就 上 述 几 种 方法 进行 了 测试 ， 其 挑选 
结果 的 存 伪 比率 、 弃 真 比率 和 识别 率 如 表 1 所 示 。 


表 1 


识别 率 


Adaboost 0.893 


改进 的 Adaboost 0.956 


贝 叶 斯 分 类 器 0.88 


最 小 距离 分 类 器 0.89 


相关 性 匹配 0.9353 


4 ”总 结 与 未 来 工作 


本 文 详细 介绍 了 单 颗粒 冷冻 电镜 三 维 重 构 的 发 展 和 现状 , 分析 了 当前 所 面临 的 主要 挑战 
性 问题 , 着 重 介 绍 了 我 们 在 单 颗粒 冷冻 电镜 三 维 重 构 相 关 研 究 工 作 上 的 进展 : 提出 了 一 种 自 
适应 动态 调度 策略 (SADS)， 有 效 解 决 了 冷冻 电镜 三 维 重 构 中 的 计算 任务 调度 问题 ， 并 且 在 
此 基础 上 ,开发 完成 了 冷冻 电镜 三 维 重 构 的 并 行 软件 ParaEMAN; 实现 了 多 种 颗粒 图 像 识别 
算法 ， 有 效 降低 了 颗粒 图 像 挑 选 的 存 伪 率 和 弃 真 率 。 
在 下 一 步 的 工作 研究 中 ， 我 们 将 主要 在 以 下 三 个 方面 继续 深入 开展 研究 : (1). 研究 高 
性 能 的 冷冻 电镜 三 维 重 构 算法 ， 进 一 步 完 善 ParaEMAN; (2). 研究 快速 准确 的 颗粒 图 像 识 
别 算法 ， 进 一 步 提 高 颗粒 图 像 的 识别 率 ;(3). 开展 单 颗粒 冷冻 电镜 三 维 重 构 新 算法 的 研究 ， 
例如 基于 球 谐 函 数 的 三 维 重 构 算法 。 
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